在没有解密的情况下对加密数据进行神经网络推断是一种流行的方法,可以使隐私神经网络(PNET)作为服务。与用于机器学习的常规神经网络相比,PNET需要额外的编码,例如量化精确数字和多项式激活。加密输入还引入了新颖的挑战,例如对抗性鲁棒性和安全性。据我们所知,我们是第一个研究问题,包括(i)PNET是否比常规神经网络对对抗性输入更强大? (ii)如何在没有解密的情况下设计强大的PNET?我们建议使用PNET攻击来生成黑框对抗示例,这些示例可以成功攻击目标和非目标方式。攻击结果表明,需要改进针对对抗输入的PNET鲁棒性。这不是一项琐碎的任务,因为PNET模型所有者无法访问输入值的明文,这阻止了现有检测和防御方法的应用,例如输入调整,模型归一化和对抗性培训。为了应对这一挑战,我们提出了一种新的快速准确的噪声插入方法,称为RPNET,以设计强大的私人神经网络。我们的综合实验表明,PNET-ITSTACK比先前的工作减少了至少$ 2.5 \ times $的查询。我们从理论上分析了我们的RPNET方法,并证明RPNET可以降低$ \ sim 91.88 \%$ $攻击成功率。
translated by 谷歌翻译
语言模型(LMS)被证明具有对物理世界的常识知识,这对于在日常情况下完成任务至关重要。但是,LMS是否有能力为具体任务生成扎根的可执行计划,这仍然是一个悬而未决的问题。这是非常具有挑战性的,因为LMS没有“眼睛”或“手”来感知现实的环境。在这项工作中,我们展示了有关这个重要研究问题的第一个研究。我们首先提出了一个名为G-Planet的新型问题公式,它将其作为输入一个高级目标和在特定环境中的对象表。预期输出是一个计划,该计划包括逐步指令供代理执行。为了实现此问题的研究,我们建立了一个评估协议,并设计了一个专门的指标来评估计划的质量。在我们的广泛实验中,我们表明,为编码环境添加扁平表并使用迭代解码策略都可以提高LMS的基础计划能力。我们对结果的分析也导致有趣的非平凡发现。
translated by 谷歌翻译
在本文中,我们提出了一种新颖的学习方案,用于自我监督的视频表示学习。受到人类如何理解视频的激励,我们建议先学习一般视觉概念,然后参加歧视性的局部区域以进行视频理解。具体而言,我们利用静态框架和框架差异来帮助解开静态和动态概念,并分别使潜在空间中的概念分布对齐。我们增加了多样性和忠诚的正常化,以确保我们学习一套紧凑的有意义的概念。然后,我们采用跨注意机制来汇总不同概念的详细局部特征,并滤除具有低激活的冗余概念以执行局部概念对比。广泛的实验表明,我们的方法提炼有意义的静态和动态概念来指导视频理解,并在UCF-101,HMDB-51和潜水-48上获得最新的结果。
translated by 谷歌翻译
联合学习(FL)是一个有前途的分布式框架,用于协作人工智能模型培训,同时保护用户隐私。引起大量研究关注的引导组件是激励机制刺激佛罗里达用户协作的设计。大多数作品采用以经纪人为中心的方法来帮助中央运营商吸引参与者并进一步获得训练有素的模型。很少有作品认为参与者之间以参与者为中心的合作来追求其共同利益的FL模型,这会引起以经纪人FL的激励机制设计的显着差异。为了协调自私和异质参与者,我们提出了一个新颖的分析框架,以激励以参与者为中心的FL有效,有效的合作。具体而言,我们分别提出了两个新型游戏模型,用于贡献符合贡献的FL(COFL)和贡献感知的FL(CAFL),后者在其中实现了最低贡献阈值机制。我们进一步分析了COFL和CAFL游戏的NASH平衡的独特性和存在,并设计有效的算法以实现平衡溶液。广泛的绩效评估表明,COFL中存在自由骑行现象,通过采用CAFL模型具有优化的最低阈值,可以极大地缓解这种现象。
translated by 谷歌翻译
与自然语言解释的视觉结合旨在推断文本图像对之间的关​​系并生成句子以解释决策过程。先前的方法主要依靠预先训练的视觉模型来执行关系推断和语言模型来生成相应的解释。但是,预训练的视觉模型主要在文本和图像之间建立令牌级别的对齐,但忽略了短语(块)和视觉内容之间的高级语义对齐,这对于视觉推理至关重要。此外,仅基于编码的联合表示形式的解释生成器并未明确考虑关键的关系推理的决策点。因此,产生的解释不太忠于视觉语言推理。为了减轻这些问题,我们提出了一种统一的块意见对齐和基于词汇约束的方法,称为CALEC。它包含一个块感知的语义交互器(ARR。CSI),一个关系属性和词汇约束感知的发生器(arr。Lecg)。具体而言,CSI利用语言和各个图像区域固有的句子结构来构建块感知语义对齐。关系下属使用基于注意力的推理网络来合并令牌级别和块级视觉语言表示。 LECG利用词汇约束来将关系下列者重点关注的单词或块纳入解释世代,从而提高了解释的忠诚和信息性。我们在三个数据集上进行了广泛的实验,实验结果表明,CALEC在推理准确性和生成的解释的质量方面显着优于其他竞争者模型。
translated by 谷歌翻译
从单个RGB图像中估算3D相互作用的手姿势对于理解人类行为至关重要。与大多数直接预测两只相互作用手的3D姿势的先前作品不同,我们建议分解具有挑战性的相互作用姿势估计任务并分别估算每只手的姿势。这样,就可以直接利用单手姿势估计系统的最新研究进度。然而,由于(1)严重的手部阻塞和(2)手的歧义性,手动姿势估计在相互作用的情况下非常具有挑战性。为了应对这两个挑战,我们提出了一种新型的手部划分和去除(HDR)框架,以执行手部斜切和脱离分散术的去除。我们还提出了第一个称为Amodal intredhand数据集(AIH)的大规模合成Amodal手数据集,以促进模型培训并促进相关研究的开发。实验表明,所提出的方法显着优于先前的最新相互作用姿势估计方法。代码和数据可在https://github.com/menghao666/hdr上找到。
translated by 谷歌翻译
弱监督的点云分段,即,由于在整个3D场景中只有几个标记点的点云,因此由于为模型训练收集丰富的密集注释的沉重负担,因此是非常可取的。但是,由于有限的注释数据可能导致标签传播的指导不足,因此现有方法仍然具有挑战性,无法准确细分3D点云。考虑到基于平滑度的方法已经取得了令人鼓舞的进步,在本文中,我们主张在各种扰动下应用一致性约束,以有效地正规化未标记的3D点。具体而言,我们提出了一个新颖的dat(\ textbf {d} ual \ textbf {a} dappive \ textbf {t} ransformations模型,用于弱监督点云进行分割,其中双重自适应转换是通过两种对敌方策略在点 - 级别和区域级别,旨在在3D点云上执行局部和结构平滑度约束。我们在大规模S3DIS和SCANNET-V2数据集上使用两个流行的骨干评估了我们提出的DAT模型。广泛的实验表明,我们的模型可以有效地利用未标记的3D点并在两个数据集上实现显着的性能增长,从而为弱监督的点云进行了新的最新性能。
translated by 谷歌翻译
与普通的计算机视觉任务不同,将图像操作检测任务更多地关注图像的语义内容,更关注图像操纵的微妙信息。在本文中,通过改进的约束卷积提取的噪声图像用作模型的输入,而不是原始图像,以获得更微妙的操纵痕迹。同时,由高分辨率分支和上下文分支组成的双分支网络被用来尽可能捕获伪像的痕迹。通常,大多数操纵将操纵伪像在操纵边缘上。专门设计的操纵边缘检测模块是基于双分支网络构建的,以更好地识别这些工件。图像中像素之间的相关性与它们的距离密切相关。两个像素越远,相关性越弱。我们为自我发场模块添加了一个距离因子,以更好地描述像素之间的相关性。四个公开图像操作数据集的实验结果证明了我们模型的有效性。
translated by 谷歌翻译
在跨越监督分类和顺序控制的应用程序中,据报道,深度学习发现了“快捷方式”解决方案,这些解决方案在数据分布的较小变化下灾难性地失败。在本文中,我们从经验上表明,可以通过提供从关键输入特征计算出的其他“启动”功能,通常是粗略的输出估计,以避免DNNs诱发了差异。启动依赖于这些与任务相关的关键输入特征的近似域知识,在实际设置中通常很容易获得。例如,可以将最近的帧优先于过去的视频输入中,以进行视觉模仿学习,或者在背景像素上进行图像分类的明显前景。关于NICO图像分类,Mujoco连续控制和Carla自动驾驶,我们的启动策略的效果要比几种流行的最先进的方法来选择和数据增强。我们将这些经验发现与DNN优化的最新理论结果联系起来,并从理论上说,启动启动通过创建更好,更简单的快捷方式来分散优化器的注意力。
translated by 谷歌翻译
联合学习(FL)是一种培训技术,使客户端设备能够通过聚合本地计算的模型来共同学习共享模型,而无需暴露其原始数据。虽然大多数现有工作侧重于提高流动模型准确性,但在本文中,我们专注于提高培训效率,这往往是采用现实世界应用的流域的障碍。具体而言,我们设计了一个有效的FL框架,该框架共同优化了模型精度,处理延迟和通信效率,所有这些都是FL实际实施的主要设计考虑因素。灵感来自近期多智能经纪增强学习(MARL)在解决复杂控制问题方面的成功,我们呈现\ TEXTIT {FEDMARL},基于MARL为基础的FL框架,它执行有效的运行时客户端选择。实验表明,Fedmarl可以显着提高模型准确性,处理延迟和通信成本要低得多。
translated by 谷歌翻译